算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性 这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。 推理 llm 马尔可夫 llm推理 马尔可夫思考 2025-10-10 15:01 2